智能论文笔记

Two-Stage Robust and Sparse Distributed Statistical Inference for Large-Scale Data

Emadaldin Mozafari-Majd , Visa Koivunen

分类： (统计)机器学习 | 机器学习

2022-08-17

在本文中，我们解决了在涉及大规模数据的设置中进行统计推断的问题，这些数据可能是高度的，并且被异常值污染。数据的大量和维度需要分布式处理和存储解决方案。我们提出了一个两阶段分布和强大的统计推断程序，通过促进稀疏性来应对高维模型。在第一阶段（称为模型选择）中，相关预测因子是通过将强大的LASSO估计器应用于不同数据子集的局部选择。然后，从每个计算节点中的变量选择通过投票方案融合，以找到完整数据集的稀疏基础。它以强大的方式识别相关变量。在第二阶段，采用了开发的统计上健壮的和计算高效的引导方法。实际推断构建体间隔，找到参数估计并量化标准偏差。与第1阶段类似，将局部推理的结果传达给融合中心并在此组合。通过使用分析方法，我们建立了鲁棒和计算有效的引导方法的有利统计特性，包括固定数量的预测因子和鲁棒性的一致性。提出的两阶段的鲁棒和分布式推理程序在变量选择中表现出可靠的性能和鲁棒性，即使数据是高度且受异常值污染的，找到置信区间和标准偏差的自举近似。

translated by 谷歌翻译

识别空间有趣，不同或对抗性行为的区域的问题是许多涉及分布式多传感器系统的实际应用。在这项工作中，我们开发了一个由多个假设检验的一般框架，以识别此类区域。假定在受监视的环境中假定离散的空间网格。确定与不同假设相关的空间网格点，同时在预先指定的水平控制错误发现率时。使用大型传感器网络获得测量。我们提出了一种新颖的，数据驱动的方法，以基于矩的光谱方法来估计局部错误发现率。我们的方法对基本物理现象的特定空间传播模型不可知。它依靠广泛适用的密度模型来用于本地汇总统计。在两次传感器之间，将位置分配给基于插值的局部错误发现率相关的不同假设相关的区域。我们方法的好处是通过应用在空间传播无线电波的应用中说明的。

translated by 谷歌翻译

我们提出了一个自动化文档分析系统，用于处理扫描的签证页面，并自动提取来自检测到的邮票的旅行模式。系统通过以下流水线处理页面：签证页面中的标记检测;一般邮票国家和入境/退出识别;申根地区邮票国家和入境/退出识别;申根区印花税日期提取。对于所提出的管道的每个阶段，我们构建了神经网络模型。我们将申根区邮票检测和日期，国家，进入/退出识别模型与图形用户界面一起集成到自动旅行模式提取工具中，这足以实现实际应用。

translated by 谷歌翻译